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多 视图 合作 的 联盟 数据 可 视 化 分 析 
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摘要 : 【 目的 】 针 对 当前 联盟 数据 在 进行 知识 发 现 过 程 中 存在 的 问题 , 设计 联盟 数据 可 视 分 析 系 统 模型 实现 对 
历史 信息 的 采集 、 挖 气 和 可 视 化 分 析 。[ 方法 】 构建 联盟 数据 可 视 分 析 系 统 模 型 , 搭建 大 数据 平台 , 验证 模型 的 
可 用 性 。[ 结果 ] 实验 结果 表明 , 系统 能 够 很 好 地 对 海量 历史 数据 进行 可 视 化 分 析 , 并 支持 决策 分 析 。[ 局 限 】 目 
前 的 可 视 分 析 结 果 视 图 还 可 以 进一步 丰富 。[ 结论 】 该 系统 可 以 对 联盟 的 历史 数据 进行 可 视 化 分 析 , 为 决策 者 提 


供 科学 化 的 数据 支持 。 
关键 词 : 联盟 数据 ”大 数据 ”可 视 分 析 借阅 记录 
分 类 号 : TP311 G350 


1 引 言 


伴随 着 信息 技术 的 飞速 发 展 ， 多 单位 联盟 共享 数 
据 成 为 一 种 普遍 的 现象 。 如 何 更 好 地 从 联盟 的 海量 信 
息 中 组 织 和 挖掘 出 有 意义 的 结果 , 并 建立 一 个 交互 的 
数据 挖掘 模型 ， 是 现 阶段 数据 联盟 面临 的 一 大 挑战 。 
可 视 化 分 析 是 一 种 通过 交互 式 可 视 化 界面 辅助 用 户 对 
大 规模 复杂 数据 集 进行 分 析 推 理 的 科学 与 技术 趾 。 利 
用 可 视 化 分 析 方 法 可 以 解决 信息 量 大 、 无 法 快速 和 有 
效 交 流 的 问题 ,发现 隐 藏 在 海量 资源 中 深层 的 潜在 知 
识 , 揭示 结果 的 深层 次 内 涵 ， 提 高 结果 的 可 理解 性 和 
可 认 知 性 。 

图 书馆 联盟 是 多 单位 共享 数据 资源 的 一 个 实例 ， 
探索 挖掘 图 书馆 联盟 数据 资源 的 方法 对 联盟 数据 资源 
的 建设 有 很 好 的 借鉴 意义 , 本文 以 天 津 市 图 书馆 联盟 
大 数据 为 例证 , 依靠 可 视 分 析 方 法 ,进行 知识 发 现 ， 
实现 决策 分 析 和 政策 制定 。 

为 了 整合 天 津 市 高 校 图 书馆 的 优质 资源 ,， 天津 市 
于 2002 年 开始 建设 天 津 高 校 联 合 数字 图 书馆 ,该 图 书 
馆 联 盟 包 括 除 天 津 大 学 和 南开 大 学 外 的 17 所 市 属 阮 
校 的 26 个 图 书馆 。 同时 与 南开 大 学 、 天 津 大 学 原 有 的 
Unicorn 系统 通过 网 关 相 互 开放 链接 , 实现 共享 书目 
数据 。 图 书馆 联盟 的 核心 任务 是 建立 一 个 包含 中 外 文 


享 、 技 术 共 享 , 完成 图 书馆 工作 中 的 包括 采访 、 编 日 、 
流通 、 期 刊 管理 、 公 共 查 询 、 馆 际 互 借 等 自动 化 管理 
提高 天 津 市 高 校 图 书馆 自动 化 管理 水 平 。 

经 过 15 年 的 发 展 , 联合 图 书馆 积累 了 大 量 馆 藏 图 
书 数据 和 读者 借阅 记录 , 应 用 数据 挖掘 技术 对 读者 借 
阅历 史 数 据 进行 定量 分 析 可 以 获知 读者 个 性 化 阅读 需 
求 , 挖掘 结果 可 以 作为 各 图 书馆 文献 采购 决策 的 数据 
参考 ,从 而 提高 文献 资源 采 选 质量 和 馆藏 资源 利用 率 ， 
使 文献 采购 工作 更 客观 、 科 学 、 合 理 玉 。 


2 相关 工作 


学 者 对 于 高 校 图 书馆 图 书 采 购 的 相关 人 研究 主要 集 
中 于 对 单个 图 书馆 的 数据 分 析 。 赵 迎春 “采用 灰色 关 
联 分 析 方 法 对 高 校 图 书馆 各 类 图 书 的 重要 性 进行 分 析 
评估 , 综合 考虑 馆藏 量 、 借 阅 量 、 高 校 重点 学 科 建 设 
以 及 读者 的 需求 和 评价 等 多 种 因素 ,分析 各 因素 的 重 
要 性 程度 和 关联 性 , 对 各 类 图 书 的 重要 性 做 出 科学 评 
估 。 但 是 文章 只 分 析 了 图 书 的 大 类 , 有 一 定 的 局 限 性 。 
尹 纪 军 “ 分 析 并 研究 了 将 神经 网 络 用 于 智能 图 书 采购 
的 方法 ,并 以 此 为 基础 ， 针 对 图 书 采 购 的 行为 特征 ， 
设计 了 一 个 基于 改进 遗传 神经 网 络 的 智能 图 书 采购 系 
统 模型 , 李 媛 等 中 利用 模糊 综合 评判 法 , 分 析 了 借阅 数 


书刊 的 联合 书目 共享 系统 , 实现 成 员 馆 之 间 的 书目 共 
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据 , 并 建立 了 高 校 图 书馆 文献 资源 采购 的 模糊 综合 评 
判 模式 ， 确 定 了 各 类 型 文献 资源 合理 采购 的 额度 。 

大 数据 背景 下 , 已 经 有 一 些 学 者 "对 图 书 的 采购 
模式 进行 了 一 些 探 索 , 并 且 应 用 数据 挖掘 技术 为 高 校 
图 书馆 的 购书 计划 提供 支持 。 迟 春 佳 等 “虽然 讨论 了 
数据 挖掘 在 制订 图 书 采购 计划 中 应 用 的 可 行 性 , 但 并 
未 给 出 具体 实例 , 冯 娜 "虽然 给 出 了 实例 , 但 该 实例 的 
数据 基于 调查 问卷 , 结果 的 主观 性 较 强 。 

国内 对 于 多 个 图 书馆 的 图 书 采 购 的 研究 还 比较 
少 , 采用 可 视 化 分 析 方 法 的 相关 研究 更 少 。 图 书 分 类 
言 息 是 层次 化 数据 ,层次 化 数据 的 可 视 化 一 直 是 信息 
可 视 化 领域 的 重要 研究 内 容 。 相 关 工 作 主 要 分 为 两 
类 : 采用 显 式 表达 的 节点 连接 图 和 采用 隐 式 表达 的 空 
间 划 分 方法 ”“。 节 点 连接 图 将 节点 间 的 父子 关系 表示 
为 节点 之 间 的 连 线 , 这 些 连 线 能 够 清晰 地 展现 节点 间 
的 上 下 级 关系 ""; 空间 划分 方法 使 用 具有 一 定 面积 或 
体积 的 块 表示 数据 中 的 个 体 节 点 ,以 树 图 及 其 变种 
为 代表 。 与 节点 连接 图 相 比 , 空间 划分 方法 一 般 将 大 
部 分 空间 用 于 叶子 节点 的 呈现 ， 导 致 非 叶子 节点 间 的 
上 下 级 或 相 邻 关系 难以 识别 …。 而 在 实际 应 用 领域 中 ， 
数据 的 组 成 不 断 趋 于 复杂 ， 大 部 分 数据 不 是 仅 具 有 单 
一 的 数据 特征 ,而 是 同时 具有 多 种 数据 特征 ， 对 于 
这 类 复杂 数据 ,Chen 等 “提出 采用 两 种 或 两 种 以 上 的 
可 视 化 方法 ,以 应 对 现 有 针对 单一 数据 特征 的 可 视 化 
和 可 视 分 析 方 法 不 能 满足 对 其 分 析 的 需求 。 

为 了 从 不 同 层面 对 结果 进行 观察 、 认 识 和 掌握 ， 
笔者 采用 多 个 视图 从 不 同 维度 实现 海量 资源 的 有 效 组 
织 和 表达 , 设计 并 实现 了 联盟 数据 可 视 分 析 系 统 。 


3 联盟 数据 可 视 分 析 系 统 模型 


本 文 的 联盟 数据 可 视 分 析 系 统 模型 基于 Hadoop 
平台 , 以 HDFS 作为 海量 数据 存储 平台 ， 整 个 模型 包 
括 Hadoop 基础 架构 、 数 据 采 集 、 数 据 预 处 理 、 数 据 
分 析 以 及 数据 可 视 化 5 个 部 分 ， 如 图 1 所 示 。 

对 各 模块 做 如 下 说 明 : 

(1) Hadoop 基础 架构 : 提供 Hadoop 分 布 式 数据 
(索引 库 、Hive 数据 仓库 、 分 析 库 ) 的 操作 接口 、 
MapReduce 并 行 计算 框架 ; 

(2) 数据 采集 : 根据 具体 需求 采集 相应 数据 ; 

(3) 数据 预 处 理 : 完成 数据 的 去 重 、 降 噪 、 特 征 提 


数据 分 析 与 知识 发 现 


取 等 相关 工作 ,为 可 视 分 析 作 数 据 准 备 ; 
(4) 数据 分 析 : 文本 的 向 量化 表示 ,对 预 处 理 后 
的 数据 进行 关联 分 析 、 统 计 分 析 等 实现 分 析 功 能 ; 
(5) 数据 可 视 化 : 基于 D3 “可视化 组 件 进行 可 视 


基于 Hadoop 联 盟 数据 可 视 分 析 系 统 模型 


图 1 联盟 数据 可 视 分 析 模 型 

本 文 以 图 书馆 联盟 数据 为 例 验 证 模型 的 可 行 性 ， 
主要 对 数据 预 处 理 模块 和 可 视 分 析 模 块 进行 说 明 。 
3.1 ”数据 预 处 理 

数据 预 处 理 模块 需要 处 理 借 阅 数据 和 馆藏 数据 。 
普 阅 数据 包含 5 个 字段 : 编号 、 时 间 、 所 属 单位 、 条 
形 码 、 用 户 名 。 然 而 由 于 历史 原因 , 个 别 图 书馆 数据 
在 合并 到 联合 馆 的 过 程 中 ,数据 存在 以 下 问题 : 

(D1907863|CJ495415|2014122615| 民 航 大 学 馆 | 张 三 ， 此 
类 型 数据 的 第 二 项 、 第 三 项 和 第 四 项 顺序 错乱 ; 

@)1907864IM1214789|2014122615| 商 学 院 馆 |C00624610| 王 
五 ， 此 类 型 数据 的 第 二 项 为 宛 余数 据 。 

为 了 解决 上 述 情况 ,需要 将 每 条 数据 进行 格式 化 ， 
形成 统一 的 格式 , 对 于 不 符合 要 求 的 数据 进行 字段 位 
置 的 互 换 或 者 去 除 。 

馆藏 数据 的 每 条 数据 包含 条 形 码 和 索 书 号 信息 。 
由 于 某 一 本 书 在 书架 上 的 排列 位 置 会 有 变动 的 情况 ， 
所 以 一 个 条 形 码 可 能 对 应 不 同 的 索 书号 ,例如 条 形 码 
ZY8027501 所 对 应 的 索 书 号 有 D125/4、D125/1、 
D125/C、 D125/A.L.X、 D08/ELX(LS) 、D751.664。 从 
索 书号 集合 中 提取 分 类 号 需要 采用 分 枝 界 限 算法 。 

输入 : 索 书号 集合 8 

输出 : 分 类 号 

集合 S(s1,52,53…5%) ， 遍历 集合 取 s,(0 三 i 硅 n) 的 首位 组 成 集 
合 K(k,ko, ky.h); 

遍历 集合 KK ,计算 KK 中 每 个 元 素 的 权重 w;， 选取 max wj 所 对 
应 的 k;， 从 5S 中选 出 首位 以 上 为 开头 的 元 素 集合 得 到 51; 

对 51 的 第 二 位 进行 步骤 一 选 出 集合 5,; 


依次 对 集合 8 中 的 元 素 的 第 i 位 进行 运算 得 到 Si ， 当 集合 Sh 
里 的 元 素 的 个 数 唯一 时 结束 。 
3.2 ”数据 可 视 化 

针对 具有 层次 化 、 多 维特 征 的 馆藏 数据 与 借阅 数 
据 , 笔者 设计 了 三 个 视图 以 显示 图 书 的 层次 结构 信息 
和 图 书 的 多 维 属 性 信息 。 

(1) 馆藏 图 书 显示 视图 

在 表示 馆藏 图 书 间 的 层次 化 关系 时 选择 节点 连接 
图 作为 馆藏 图 书 显示 的 视图 。 在 树 形 结构 中 为 了 表示 
不 同类 别 之 间 的 数量 对 比 关系 , 选择 权重 树 作为 结 
的 展示 。 所 谓 权 重 树 ， 就 是 在 展示 节点 的 同时 展示 各 
个 节点 的 权重 ， 以 节点 的 大 小 作为 节点 的 权重 大 小 。 
这 里 选用 开源 的 权重 树 组 件 Vizuly" "作为 馆藏 图 书 的 
层次 化 结构 的 显示 视图 。 

(2) 借阅 图 书 与 馆藏 图 书 的 对 比 视图 

为 了 分 析 某 类 图 书 的 使 用 率 , 定义 图 书 借阅 比 
如 公式 (1) 所 示 。 

rn; = lent; / stock; (1) 

其 中 ，i 代表 某 类 图 书 ，stock 代表 该 类 图 书馆 藏 
量 ，lent; 代表 该 类 图 书 借阅 量 。 为 了 表示 不 同 图 书 类 
别 在 数量 上 差异 ,笔者 设计 了 第 二 个 视图 , 该 视图 中 
每 一 类 图 书 由 一 段 圆 弧 和 两 个 三 角形 表达 出 馆藏 数 
量 、 借 阅 量 和 借阅 比 三 个 维度 的 信息 。 使 用 D3 的 弧 
生成 锅 作 为 基本 图 形 的 框架 ， 每 个 弧 都 包含 该 弧 段 的 
起 始 角度 、 终 止 角 度 、 内 半径 以 及 外 半径 等 信息 , 使 
用 多 边 形 布 局 算法 完成 该 视图 ,多 边 形 布 局 算法 如 下 。 

输入 : 弧 序 列 arcfaj}?_1 ,数据 {dj}?_1， 参数 a,pB 


输出 : 攻 序 列 arcfbj)_1， 绝 的 宽度 wi;， 三 角形 的 顶点 
Ge et Vjim | 

使 用 绝 生 成 器 生成 弧 序 列 arc{a jj ; 

对 于 弧 gj， 计算 每 段 狼 的 起 始 角度 sjj 、 终 止 角度 ej;; 

根据 参数 4,Q,B 以 及 起 始 角度 sj;;、 终 止 角度 ej;， 得 出 绝 的 


过 应 = > 6 6 
宽度 wii， 三 角形 的 顶点 (xjim|5sy jm [1); 


依据 弧 序 列 的 大 小 终止 ， 和 输出 ac 他 -1 ，w 


ji ， 


(oe a 

本 文中 多 边 形 布局 算法 的 参数 4=100 ,参数 
= B=2。 此 外 该 算法 还 需要 其 他 参数 包括 : 外 半径 
R ,内 半径 xr， 圆 孤 的 宽度 w, 数据 4 ， 圆 弧 arc ， 圆 
弧 的 起 始 角 度 s， 圆 弧 的 终止 角度 e。 
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圆 弧 的 宽度 计算 如 公式 (2) 所 示 。 


w=(R-r)x(I-—(d;/A))+r (2) 
弧 上 的 点 模 、 纵 坐标 计算 如 公式 (3) 和 公式 (4) 所 示 。 

Xm = Rxsin(0),m el[l,6] (3) 

Vim = RxXcoOs(0),m el[l,6] (4) 


弧 外 的 点 横 、 纵 坐标 计算 公式 如 公式 (5) 和 公式 (6) 
所 示 。 
Xim=(R+di)xsin((O+(s; +e)/ 8)/ bp), mell,6] 
5 
yim=(R+d;)xcos((0+(s; +e;)/0)/ Pp), me 、 | 
(0) 
当 m=1,2,4 时 ,0=s,; 当 m=3,5,6 时 ,0 =e@,。 
(3) 图 书 与 图 书馆 之 间 的 视图 
为 了 得 到 读者 所 借 图 书 与 图 书馆 之 间 的 关系 , 笔 
者 设计 了 第 三 个 视图 。 由 于 高 校 联 合 图 书馆 共有 26 
个 图 书馆 , 为 了 分 析 这 26 个 图 书馆 中 每 个 图 书馆 的 读 
者 借阅 不 同类 别 图 书 的 情况 以 及 不 同类 别 的 图 书 在 不 
同 图 书馆 的 被 借阅 情况 , 所 以 将 图 书 类 别 与 图 书馆 之 
间 的 关系 抽象 为 图 G=(7V,E)， 其 中 项 点 VV 代表 图 书 
的 类 别 和 图 书馆 , 边 E 代表 图 书 类 别 与 图 书馆 的 关 
系 。 由 于 图 书 的 类 别 是 相互 独立 的 , 不 同 图 书馆 之 间 
是 相互 独立 的 , 图 书 类 别 与 图 书馆 之 间 也 是 相互 独立 
的 , 所 以 G 是 一 个 二 部 图 。 关 于 二 部 图 的 可 视 化 参照 
了 Pashat 有 关 二 部 图 可 视 化 的 有 关 组 件 。 


4 实例 分 析 


图 书 按照 分 类 号 可 以 分 为 22 大 类 , 本 文选 取 工 业 
技术 类 图 书 进行 实例 分 析 , 着 重 分 析 该 类 图 书 的 借阅 
比 以 及 该 类 图 书 在 不 同 图 书馆 被 借阅 的 情况 。 

4.1 数据 来 源 

本 文 所 采用 的 数据 来 自 天 津 市 高 校 数 字 化 图 书馆 
的 Unicorn 图 书馆 自动 化 管理 系统 。 共 有 从 Unicorn 
图 书馆 自动 化 管理 系统 开始 启用 截止 到 2015 年 2 月 
28 日 的 1.6 亿 条 馆藏 图 书 数据 和 从 2013 年 1 月 1 日 到 
2015 年 2 月 28 日 的 396 万 条 借阅 数据 。 

4.2 可 视 分 析 

(1) 馆藏 图 书 的 分 析 

高 校 联合 馆 中 图 书 的 层次 化 结构 显示 如 图 2 所 示 。 
由 图 2(a) 可 以 清楚 地 看 出 馆藏 图 书 中 各 类 别 的 一 个 
相对 关系 ,工业 技术 类 的 图 书 最 多 ,其 次 依次 是 文学 
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类 、 经 济 类 、 语 言 文 字 类 ,而 航空 航天 类 、 天 文学 地 
球 科学 类 的 图 书 比 较 少 ,这 种 现象 与 17 所 院 校 中 所 开 
设 的 专业 有 关 ， 比 如 只 有 中 国民 航 大 学 开设 航空 航天 
类 的 专业 ,17 所 院 校 中 没有 院 校 开设 天 文学 地 球 科学 
类 的 专业 。 


忆 吉 思 主义 、 列 订 主 义 、 毛 至 本 甩 想 、 
(a) 中 图 法 22 大 类 


败 一 般 工业 技术 

< 冶金 工业 

友 化 学 工业 

原子 能 技术 

酌 建 席 和 闻 

网 乱 邱 电子 学 电信 技术 

国 机 械 与 仪 去 工业 

武器 工业 

水 利 工程 
国电 工 技术 

石油 天 然 气 工业 

和 一 一 TI 程 

能 源 动力 工 


程 


折 动 化 计算 机 技术 
“WB I. 手 站 
全 属 学 与 多 属 工艺 


马克 思 主 义 、 列 宁 主 义 、 毛 泽 东 思 想 、-” 
(b) 工业 技术 
图 2 高 校 联合 馆 中 图 书 的 层次 化 结构 


(2) 借阅 图 书 与 馆藏 图 书 的 对 比分 析 
借阅 图 书 与 馆藏 图 书 的 对 比分 析 如 图 3 所 示 。 内 
圆 环 代表 每 一 类 图 书 的 馆藏 数量 , 梯 色 三 角形 代表 
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该 类 图 书 的 借阅 量 ， 蓝 色 三 角形 代表 借阅 比 x。 从 图 
3(a) 中 可 知 22 大 类 中 文学 类 的 借阅 比 x 为 47.2%， 
从 侧面 说 明 读 者 对 这 类 图 书 的 需求 比较 大 。 为 了 进 
一 步 展 示 22 大 类 中 各 类 的 子 类 的 借阅 情况 ,选取 工 
业 技 术 这 一 类 别 做 进一步 分 析 , 得 到 结果 图 3(b)。 
由 图 3(b) 可 知 ， 自 动 化 计算 机 类 的 图 书馆 藏 数量 最 
多 ,武器 工业 馆藏 数量 最 少 ; 自动 化 计算 机 类 的 借 
阅 量 最 多 ， 原 子 能 技术 类 的 图 书 借阅 量 最 少 ; 借阅 
比 关 最 高 的 三 类 依次 是 轻工业 手工 业 类 (28.2%)、 自 
动 化 计算 机 类 (24.3%)、 建 筑 科学 (21.4%), 借阅 比 x 
最 少 的 为 原子 能 技术 类 (1.6%)。 借 阅 比 普遍 低 反 应 
了 馆藏 图 书 的 利用 率 比 较 低 ,这 也 比较 符合 互联 网 
环境 下 用 户 对 纸 质 图 书 需 求 降低 的 客观 现实 。 


11. 2% 


(b) 工业 技术 各 子 类 借阅 比分 析 
图 3 借阅 图 书 与 馆藏 图 书 的 对 比分 析 
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(3) 图 书 与 不 同 图 书馆 之 间 的 分 析 
图 4 显示 的 是 不 同类 别 的 图 书 与 图 书馆 之 间 的 关 
系 视图 。 


o% Ti 术 国 - 中 医学 院 注 0% 


一 一 中 医药 大 学 0% 

0% 人 体育 学 院 馆 0% 
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= 医科 大 学 馆 0% 

13% 建筑 科学 商学 院 馆 3% 


城建 学 院 馆 12% 
外 语 大 学 馆 0% 
外 语 学 院 馆 


6% ”机 械 与 仪表 工 

0% 武器 工业 天 津 工大 馆 26% 
0% 水 利 工程 

恕 电工 技术 

0% 石油 天 然 气 工 | 天 职 师 大 馆 14% 
% iT 师 大 中 心 迟 。 0% 


49% ”自动 化 计算 机 技术 


财经 大 学 入 。。 才 
音乐 学 院 馆 0% 
高 校 联合 馆 0% 


8% 轻工业 手工 业 四 


图 4 借阅 图 书 与 用 户 之 间 的 分 析 视 图 


高 校 图 书 联合 馆 共 有 图 书馆 26 个 ,从 该 视图 中 可 
以 分 析出 同一 类 书 在 不 同 图 书馆 的 借阅 情况 以 及 同一 
图 书馆 的 读者 借阅 不 同类 别 图 书 的 情况 。 

对 同一 类 书 在 不 同 图 书馆 的 借阅 情况 进行 分 析 分 
析 如 图 5 所 示 。 由 图 3 可 知 工业 技术 类 的 子 类 的 借阅 
比 x 超 过 20% 的 共有 三 类 : 自动 化 计算 机 技术 类 、 建 
筑 科 学 类 、 轻 工业 手工 业 类 。 从 图 5(a) 可 以 得 到 自动 
化 计算 机 技术 类 的 图 书 占 到 读者 所 借 工业 技术 类 图 书 
中 的 49%, 读者 借阅 量 排 在 前 三 的 图 书馆 依次 是 天 津 
工大 馆 (26%)、 天 职 师 大 馆 (14%)、 城 建 学 院 馆 (12%); 
从 图 Sb) 可 以 看 出 建筑 科学 类 的 图 书 有 5$8% 的 被 城建 
学 院 馆 所 借 ; 从 图 5(c) 可 以 看 出 轻工业 手工 业 的 读者 
主要 和 集中 在 天 津 工大 馆 (45%) 和 科技 大 学 馆 (18%), 虽 
然 在 此 类 别 中 美术 学 院 的 读者 所 借 图 书 仅 占 8%, 但 
是 美术 学 院 对 这 类 书 有 特别 高 的 需求 , 从 图 5(d) 中 可 
以 看 到 美术 学 院 馆 的 用 户 所 借 轻 工业 手工 业 类 图 书 占 
到 32%, 出 现 这 种 情况 的 原因 可 能 和 学 校 所 设 专业 有 
关 或 者 和 读者 的 喜好 有 关 , 具体 原因 还 需要 进一步 研 
究 。 这 些 数据 不 仅 可 以 作为 不 同学 校 间 采购 经 费 的 分 配 
依据 , 还 可 作为 本 校 在 不 同类 别 图 书 采购 经 费 分 配 的 
依据 。 

进一步 对 借阅 率 比 较 低 的 三 个 类 别 进行 分 析 如 图 
6 所 示 。 
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图 6 借阅 率 比 较 低 的 三 个 类 别 的 分 析 


由 图 3(b) 可 知 借阅 比率 在 2% 左 右 的 共有 三 类 : 原 
we 矿业 工程 (2.0%0)、 治 金工 业 (2.3%0)。 

三 类 图 书 的 读者 主要 集中 在 理工 大 学 馆 、 工 业 大 学 
ee 馆 读 者 借 这 类 书 的 
比例 也 达到 了 6%。 虽 然 出 现 这 种 情况 的 原因 需要 进 
一 步 研 究 , 但 是 这 些 数据 反映 了 读者 对 这 一 类 图 书 
的 需求 , 采购 人 员 可 以 根据 读者 的 需求 进行 采购 
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上 面 分 析 的 是 不 同类 别 的 图 书 与 不 同 图 书馆 之 


间 的 关系 , 同时 这 个 视图 也 可 以 用 来 分 析 不 同 图 书 
馆 的 读者 对 于 不 用 类 别 图 书 的 不 同 需求 ,如 网 7 和 图 
ee 
类 中 的 自动 化 计算 机 类 的 图 书 需求 比较 大 , 尤其 


学 类 的 图 书馆 更 是 如 此 ， 


者 的 需求 。 
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(d) 中 医药 大 学 馆 
图 8 不 同 图 书馆 的 读者 借阅 不 同类 别 图 书 的 分 析 
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结 语 


通过 对 联盟 图 书馆 的 馆藏 数据 以 及 读者 的 借阅 记 


录 进 行 多 维度 可 视 化 分 析 , 笔者 发 现 联盟 图 书馆 存在 
图 书 借阅 率 较 低 的 问题 。 多 视图 可 视 化 分 析 方 法 除了 
能 够 更 清晰 地 展示 数据 的 层次 结构 以 外 , 还 便于 进行 
层次 下 行 、 层 次 上 行 等 自然 交互 , 实验 结果 可 以 辅助 
图 书馆 进行 图 书 采购 活动 。 虽 然 本 文 只 是 以 联盟 图 书 
馆 数 据 进 行 实例 分 析 , 但 提出 的 可 视 分 析 系 统 模型 对 
其 他 联盟 的 数据 依然 有 效 , 能 够 对 联盟 数据 进行 有 效 
的 可 视 化 分 析 , 发 现 隐藏 在 数据 背后 的 潜在 知识 。 


[1] 


[2] 


[3] 


[4] 


[5] 


[0] 


任 舌 ， 杜 一 ， 马 帅 ， 等 . 大 数据 可 视 分 析 综 述 [J]， 软件 学 
报 , 2014, 25(9): 1909-1936. (Ren Lei, Du Yi, Ma Shuai, et al. 
Visual Analytics Towards Big Data [J]. Journal of Software, 
2014, 25(9): 1909-1936.) 

贺 德 方 ， 曾 建 勋 ,基于 语义 的 馆藏 资源 深度 聚合 研究 []]. 
中 国 图 书馆 学 报 , 2012, 38(200): 79-87. (He Defang, Zeng 
Jianxun. Study on In-depth Integration of Library Collections 
Based on Semantics[J]. Journal of Library Science in China. 
2012, 38(200): 79-87.) 

赵 迎 春 . 灰色 关联 分 析 在 高 校 图 书馆 图 书 采购 中 的 应 用 
[J]， 农业 图 书 情报 学 刊 ，2016，28(9): 114-118. (Zhao 
Yingchun. Application of Grey Relation Analysis Method in 
the College Libraies’ Books Acquisition[J]. Journal of Library 
and Information Sciences in Agriculture. 2016, 28(9): 
114-118.) 

尹 纪 军 . 基于 改进 遗传 神经 网 络 的 图 书 采 购 系统 研究 [D]. 
镇 江 : 江苏 大 学 ，2007. (Yin Jijun. Research on Book 
Purchasing System Based on Improved Genetic Neural 
Network [D]. Zhen Jiang: Jiangsu University, 2007.) 

李 垦 ， 胡 著 . 模糊 综合 评判 法 在 高 校 图 书馆 文献 采购 中 的 
应 用 [可 . 农业 图 书 情报 学 刊 , 2014, 26(5): 72-75. (Li Yuan， 
Hu Rong. The Application of Fuzzy Comprehensive 
Evaluation Method in the Document Purchasing of University 
Library[J]. Journal of Library and Information Sciences in 
Agriculture. 2014, 26(5): 72-75.) 

述 春 佳 , 毛 志 勇 . 基于 数据 挖掘 的 高 校 图 书馆 图 书 采 购 计 
划 辅 助 决策 研究 [如]. 现代 情报 ，2009，29(7): 108-110. (Chi 


Chunjia, Mao Zhiyong. Research on Assistant Decision- 


making in Formulating University Library Book Purchasing 
Plan Based on Data Mining[J]. Journal of Modern 
Information, 2009, 29(7): 108-110.) 


Data Analysis and Knowledge Discovery 


201711.01982v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


_ 到 文 


[7] 


[8] 


[9] 


[10] 


[11] 


[12] 


[13] 


[14] 


冯 娜 , 浅 议 基 于 数据 挖掘 的 高 校 图 书馆 购书 计划 [J. 农业 
图 书 情 报 学 刊 ， 2016，28(4): 112-114. (Feng Na. A Brief 
Discussion of University Library’s Book Procurement Plan 
Based on Data Mining[J]. Journal of Library and Information 
Sciences in Agriculture, 2016, 28(4): 112-114.) 

赵 海 条 ,， 昌 琳 ， 薄 志 涛 . 面向 层次 化 数据 的 变 分 圆 形 树 图 
[J]. 软件 学 报 , 2016, 27(5): 1103-1113. (Zhao Haisen, 工 首 
Lin, Bo Zhitao. Variational Circular Treemaps for 
Hierarchical Data[lJ]. Journal of Software, 2016, 27(5): 
1103-1113.) 

Schulz H J. Treevis. net: A Tree Visualization Reference[J]. 
IEEE Computer Graphics and Applications, 2011. 31(6): 
11-15. 

Schulz H J, Schumann H. Visualizing Graphs 一 A Generalized 
View[Cl]//Proceedings of the Conference on Information 
Visualization (IV 2006). Washington, USA: IEEE Computer 
Society, 2006, 166-173. 

Tak S, Cockburn A. Enhanced Spatial Stability with Hilbert 
and Moore Treemaps[J]. IEEE Transactions on Visualization 
and Computer, 2013. 19(1): 141-148. 

Lam H C, Dinov I D. Hyperbolic Wheel: A Novel Hyperbolic 
Space Graph Viewer for Hierarchical Information Content[J]. 
ISRN Computer Graphics, 2012(6): 487-493. 

Ham F V, Wijk J V. Beamtrees: Compact Visualization of 
Large Hierarchies[J]. Information Visualization. 2003. 2(1): 
31-39. 

陈 谊 ， 对 远 刚 ， 胡 海 云 , 等 . 一 种 层次 结构 中 多 维 属 性 的 
可 视 化 方法 [ 刀 . 软件 学 报 ，2016, 27(5): 1091-1102. (Chen 
Yi, Zhen Yuangang, Hu Haiyun, et al. Visualization 
Technique for Multi-Attrbute in Hierarchical Structure[J]. 
Journal of Software, 2016, 27(5): 1091-1102.) 


[15] Chen Y, Zhang X Y, Feng Y C, et al. Sunburst with Ordered 
Nodes Based on Hierarchical Clustering: A Visual Analyzing 
Method for Associated Hierarchical Pesticide Residue 
Data[J]. Journal of Visualization, 2015. 18(2): 237-254. 

[16] Bring Data to Life with SVG, Canvas and HTML[EB/OL]. 
[2016-11-04]. https://github.com/d3/d3. 

[17] Vizuly. Weighted Tree [EB/OL]. [2016-11-04]. http://vizuly. 
io/product/weighted-tree/?demo=d3]js. 

[18] NPasha. Bipartite Graph [EB/OL]. [2016-11-04]. http://bl. 
ocks.org/NPasha. 


姚 楠 : 提供 原始 数据 ， 进 行 基 础 数据 分 析 ; 

雪 锋 , 柯 永 振 : 提出 研究 思路 , 设计 研究 方案 , 论文 最 终 版 本 
修订 ; 

申 雪 锋 : 进行 实验 , 采集 、 清 洗 和 分 析 数 据 ， 论文 起 草 。 


所 有 作者 声明 不 存在 利益 冲突 关系 。 


支撑 数据 由 作者 自 存储 , E-mail: 812876188@qq.com。 

[1] 申 雪 锋 . library_book, library_lent. 馆藏 原始 数据 和 图 书 借阅 
记录 原始 数据 . 

[2] 申 雪 锋 . book_denoised. 馆藏 原始 数据 去 重 之 后 的 数据 . 

[3] 申 雪 锋 . lent_Statistical data. 借阅 记录 统计 数据 . 


收 稿 日 期 : 2016-11-14 
收 修改 稿 日 期 : 2017-02-23 


Visualization of Coalition Data Based on Multi View Cooperation 
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Abstract: [Objective] This paper proposes a data visualization model to retrieve, analyze and present historical records 


from a data coalition, aiming to Improve the knowledge discovery. [Methods] We constructed a model for the visual 


data analysis system, and then used a big data platform to examine its feasibility. [Results] The proposed system could 


analyze massive historical data and then support the decision making procedures. [Limitations] The current visual 


analysis result views could be further 1mproved by adding more chart templates. [Conclusions] The proposed system 


could analyze historical data from the library alliance and provide valuable information for decision makers. 
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